\section{Descrição do Problema}
\label{problema}

O reconhecimento de letras é um problema que pode ser visto facilmente no processo de digitalização de livros. Para converter a informação existente nos livros em texto no formato digital, cada página precisa ser convertida em imagem e cada imagem precisa ser interpretada, identificando cada caractere que está na página. Existem ainda diversas fontes usadas por diferentes livros, bem como diferentes tamanhos de letra. Ainda, é possível que alguns caracteres estejam borrados ou apresentem sujeira durante o processo de digitalização. Assim, é preciso utilizar técnicas que sejam capazes de reconhecer padrões de forma genérica para a identificação de letras em uma imagem.

\subsection{Descrição da Base de Dados}

Frey e Slate~\cite{Letter1991} exploraram o uso de classificadores adaptativos para o reconhecimento de letras. A base de dados utilizada por ambos encontra-se disponível e será utilizada neste trabalho. Ela é composta de 20000 instâncias das 26 letras em caixa-alta do alfabeto inglês. Cada letra pode ter sido originada de 20 diferentes tipos de fontes, e cada imagem sofreu pequenas distorções para gerar 20000 estímulos únicos. Cada imagem é composta de 17 atributos que operam basicamente sobre informações estatísticas do número de pixels da figura e das bordas da imagem. Tais atributos são descritos na Tabela~\ref{tab:bd}. Cada valor de um atributo foi convertido para ficar entre os valores de 0 à 15.

%T_ODO Não entendi porque a descrição dos atributos não é simplesmente uma tradução da descrição encontrada no arquivo "letter-recognition.names"
%Exemplo: Lá "x-box" seria algo como "tamanho horizontal da caixa" e na tabela abaixo está "A menor posição horizontal da menor caixa que pode compor a figura"
\begin{table}[h!]
\caption{Atributos da base de dados}
\begin{center}
\begin{tabular}{ c | m{12cm} }
\textbf{Atributo} & \textbf{Significado}\\\hline
lettr & letra maiúscula  (26 valores de A a Z) \\\hline
x-box & A menor posição horizontal da menor caixa que pode compor a figura  \\\hline
y-box & A menor posição vertical da menor caixa que pode compor a figura \\\hline
width & Comprimento da caixa que menor compor a figura \\\hline
high & Altura da caixa que menor compor a figura \\\hline
onpix & Número total de pixels desenhados na caixa \\\hline
x-bar & A média da posição horizontal de todos os pixels desenhados, relativo ao centro da caixa e dividido pelo comprimento da caixa que compõe a figura \\\hline
y-bar & A média da posição vertical, com as mesmas considerações do atributo \textit{x-bar} em relação à altura \\\hline
x2bar & Média da variância considerando as mesmas medições realizadas para cálculo do atributo \textit{x-bar} \\\hline
y2bar & Média da variância, com as mesmas considerações do atributo \textit{x2bar} em relação à altura \\\hline
xybar & A média do produto de X e Y, considerando as posições utilizadas para o cálculo de \textit{x-bar} e \textit{y-bar} \\\hline
x2ybr & A média de $x \times x \times y$, considerando $x$ e $y$ medidos como em \textit{x-bar} e \textit{y-bar} \\\hline
xy2br & A média de $x \times y \times y$, considerando $x$ e $y$ medidos como em \textit{x-bar} e \textit{y-bar} \\\hline
x-ege & A média do número de pixels desenhados nos limites das colunas (pixels desenhados numa coluna da esquerda que não foram desenhados na coluna à direita) \\\hline
xegvy & A soma de dos valores dos limites de coluna encontrados na medição de \textit{x-ege} \\\hline
y-ege & A média do número de pixels desenhados nos limites das linhas (pixels desenhados numa linha de cima que não foram desenhados na linha de baixo)  \\\hline
yegvx & A soma de dos valores dos limites de linha encontrados na medição de \textit{y-ege}
\end{tabular}
\end{center}
\label{tab:bd}
\end{table}

Cada letra é bem representada, sendo $769.2$ o número médio de instâncias de cada letra, e o desvio padrão de $23.17$. Todos os atributos de todas as instâncias da base de dados contêm os valores associados àquele atributo.
